101 research outputs found

    Final Lengthening in Parkinsonian French Speech

    Get PDF
    International audienceThe ensuing study examined the impact of Parkinson disease (PD) on the duration of CV syllables in different positions within phrases and the distribution of final lengthening (FL) on syllable subcomponents. Two main tendenciess emerged:1) PD patients produced normal FL and 2) FL effects can be attributed primarily to vowels. These findings suggest that PD speakers had no difficulty with FL and that there is a progressive lengthening across the subconstituents of the final syllable. More fundamentally, these results indicate that the syntactic function of prosody is intact in PD patients at least at the early and mild stages of the disease

    Traitements automatiques de palatogrammes (palatographie directe)

    Get PDF
    International audiencePalatography has been widely used to investigate consonants articulation. This technique has however some drawbacks since its records of the lingual palatine contact pattern most often does not take into account the shape of the palatal fold. This makes difficult palatine pattern comparison across speakers. To alleviate this limitation we propose a method to obtain a more realistic information about the articulation which copes with individual morphological differences.La palatographie a été largement utilisée pour examiner l'articulation de consonnes. Cette technique a cependant quelques inconvénients puisque la capture des patrons de contact linguopalatal ne prend le plus souvent pas en compte la forme du palais. Cela rend la comparaison de patrons linguopalataux entre locuteurs difficile. Pour atténuer cette limitation nous proposons une méthode permettant d'obtenir des informations plus réalistes sur l'articulation supportant les différences morphologiques individuelles

    3D Palatography

    Get PDF
    International audienceStatic palatography has been widely used to investigate consonant articulation. The method is based on the observation of the tongue print (a black paste is spread on the tongue before the production) either directly onto the palate (direct palatography) or onto a pseudo palate (indirect palatography). This study has two main objectives. The first one is to provide an automatic analysis of the tongue print characteristic (size, shape, position onto the palate,...) in order to allow an objective description of the linguopalatal contact.The second one concerns the shape of the palate. Indeed, a simple picture (2D) analysis does not take into account the shape (3D) of the palate vault. To alleviate this 2D limitation, we propose a method based on the use of structured light which enables the computation of the palate shape

    LE GENRE A L'INTERFACE DES SCIENCES. LA VOIX TROUBLEE : APPROCHE DU GENRE VOCAL PAR SON OPACITE DANS LA VOIX DES FEMMES ATTEINTES D'UN OEDEME DE REINKE

    No full text
    1.1. PROBLEMATIQUE Le genre fait partie des informations que transmet la voix. Celle-ci peut suffire à identifier le genre du locuteur dans des circonstances où les interlocuteurs ne se voient pas, par exemple au téléphone. Toutefois, cette identification n'est pas garantie pour au moins deux raisons : bien qu'il reflète partiellement une distinction biologique entre les deux sexes, le genre fait surtout l'objet d'une construction sociale et culturelle complexe comme l'ont montré plus de quarante ans de travaux en sciences sociales ; par ailleurs, certaines pathologies de la voix, comme l'oedème de Reinke, modifient ses caractéristiques acoustiques au point de brouiller parfois l'identification du genre. Ce brouillage fait l'objet d'une plainte de la part des femmes atteintes de cette pathologie. Ce projet se propose de rassembler une médecin spécialiste de la voix, une phonéticienne et une sociolinguiste spécialiste du genre pour explorer l'interférence du pathologique et du culturel dans la transmission du genre par la voix. Nous procéderons à des expériences de production et de perception de la voix sur une population libanaise parlant l'arabe libanais et le français. Nous croiserons les résultats de ces expériences avec ceux d'une enquête sociolinguistique pour cerner quelles sont les critères socio-culturels qui interviennent dans la catégorisation genrée des voix entendues

    Detecting human and non-human vocal productions in large scale audio recordings

    Full text link
    We propose an automatic data processing pipeline to extract vocal productions from large-scale natural audio recordings. Through a series of computational steps (windowing, creation of a noise class, data augmentation, re-sampling, transfer learning, Bayesian optimisation), it automatically trains a neural network for detecting various types of natural vocal productions in a noisy data stream without requiring a large sample of labeled data. We test it on two different data sets, one from a group of Guinea baboons recorded from a primate research center and one from human babies recorded at home. The pipeline trains a model on 72 and 77 minutes of labeled audio recordings, with an accuracy of 94.58% and 99.76%. It is then used to process 443 and 174 hours of natural continuous recordings and it creates two new databases of 38.8 and 35.2 hours, respectively. We discuss the strengths and limitations of this approach that can be applied to any massive audio recording

    Supervised Classification of Baboon Vocalizations

    Get PDF
    International audienceThis paper addresses automatic classification of baboon vocalizations. We considered six classes of sounds emitted by "Papio papio" baboons, and report the results of supervised classification carried out with different signal representations (audio features), classifiers, combinations and settings. Results show that up to 94.1\% of correct recognition of pre-segmented elementary segments of vocalizations can be obtained using Mel-Frequency Cepstral Coefficients representation and Support Vector Machines classifiers. Results for other configurations are also presented and discussed, and a possible extension to the "Sound-spotting'' problem, i.e. online joint detection and classification of a vocalization from a continuous audio stream is illustrated and discussed

    Bilan et perspectives de quinze ans d'évaluation vocale par méthodes instrumentales et perceptives

    No full text
    International audienceFor fifteen years, we have developed and studied different techniques and methodologies to assess voice quality in a clinical context. This paper exposes recent results obtained by complementary approaches. 449 speakers (including 391 dysphonic patients) participated in the experiment where voice quality was evaluated by (1) perceptual voice assessment performed by a jury and (2) instrumental voice assessment using acoustic and aerodynamic data. Results showed that a combination of 7 instrumental measures allowed the classification of 82% voice samples in the same grade as the jury. We evaluate the methodological situation and we also discuss some theoretical aspects which are often forgotten in the performance race.Dans le domaine de la phonétique, l'analyse de la qualité de la voix est généralement intégrée dans l'étude des phénomènes paralinguistiques de la communication parlée (Laver, 1981). Actuellement, la majorité des études dans le domaine portent sur les relations entre l'état émotionnel du locuteur et les indices acoustiques portés par le signal vocal, ou encore sur la variabilité de la qualité de la voix en fonction de facteurs dialectaux et socioculturels (Gobl et al., 2003). Dans notre cas, depuis une quinzaine d'années (Giovanni et al., 1991), nous nous sommes penchés plus particulièrement sur les relations entre état physiologique du locuteur et qualité vocale, notamment dans un cadre clinique de dysfonctionnement du système pneumo phonatoire. Dans ce cadre de la prise en charge des dysphonies, l'étape de l'évaluation vocale est apparue nécessaire pour permettre des comparaisons entre les différentes formes de pathologies, entre patients, pour contrôler l'évolution longitudinale de l'état vocal ou encore des différentes solutions thérapeutiques. Les deux principales méthodes retenues sont le jugement perceptif et les mesures instrumentales multiparamétriques. La première méthode consiste à faire juger la qualité vocale de patients par des experts (phoniatres, orthophonistes) dont le rôle est de fournir un grade de dysphonie sur une échelle GRBAS proposée par Hirano (1981). Le principe est de faire lire au patient un texte normalisé dont l'énoncé enregistré est ensuite soumis en aveugle à quatre juges expérimentés qui attribuent une note entre 0 (normal) et 3 (dysphonie sévère) par catégorisation directe ou à travers des échelles analogiques visuelles interprétées (Yu et al., 2002). Dans la plupart des cas, seul le grade G (global, général) de la dysphonie est exploité. Du fait des limites rencontrées par cette approche (Bonastre et al., 2007), des mesures instrumentales sont effectuées parallèlement sur les patients à l'aide du dispositif EVA (Teston et al., 1995) qui permet d'obtenir des mesures acoustiques de stabilité laryngée (jitter, shimmer, coefficient de Lyapounov), des estimations de performance pneumo-phonatoire (étendue vocale, temps maximal de phonation) et des grandeurs aérodynamiques qui explorent de façon directe et sélective certains mécanismes comme la fuite glottique (par mesure de débit d'air oral) ou la tension de la source (par estimation de la pression sous-glottique). Dans une étude récente (Yu et al. , 2007), 449 locuteurs (incluant 391 patients dysphoniques) ont été soumis à cette double évaluation perceptive et instrumentale. Les résultats montrent qu'une combinaison de six paramètres physiques (Etendue vocale, Coefficient de Lyapounov, Pression Sous-glottique estimée, Temps maximal de phonation, débit d'air oral et rapport signal/bruit) autorisent une classification identique à l'évaluation perceptive dans 82% des cas. Ce résultat est encourageant par rapport à d'autres études comme celle de Wuyts et al. (2000) mais l'adéquation reste insuffisante pour une utilisation clinique de routine. Nous pensons qu'il s'agit essentiellement d'une limite méthodologique liée à la relation non bijective entre espace perceptif et mesures physiques. De plus, les techniques instrumentales utilisées ont été conçues pour une approche analytique descendante fondée sur la mesure objective (ex : soupçon de fuite glottique => mesure de débit d'air) alors qu'elles sont utilisées comme des "machines à écouter" avec une approche montante, globale et "aveugle". Nos perspectives sont diverses. Tout d'abord, l'utilisation de techniques issues de la reconnaissance automatique du locuteur adaptées à la classification du grade de dysphonie semble prometteuse (Pouchoulin et al., 2007) car ces méthodes sont aptes, du fait de la phase d'apprentissage, à "imiter" le jugement perceptif. D'autre part, les techniques instrumentales "classiques" devraient s'utiliser pour la mesure objective à des fins de suivi longitudinal ou d'évaluation ciblée sur une ou quelques dimensions du dysfonctionnement vocal. Enfin, l'étude des relations entre perception et signal vocal devrait être appréhendée pour se rapprocher d'une évaluation auditive plus précise, comme celle de l'intelligibilité, et moins globale comme proposé par Hammarberg et al. (1980), avec notamment des liens avec la physiopathologie. Le recours à de la synthèse de voix pathologiques serait d'un grand intérêt pour explorer les relations perception/acoustique et pour avoir des matériaux calibrés pour tester les techniques de mesures objectives

    Approches complémentaires pour l'évaluation des dysphonies : bilan méthodologique et perspectives

    No full text
    Autorisation No.3240 : TIPA est la revue du Laboratoire Parole et LangageThis paper describes comparative studies of voice quality assessment based on complementary approaches. The first study was undertaken on 449 speakers (including 391 dysphonic patients) whose voice quality was evaluated in parallel by a perceptual judgment and objective measurements on acoustic and aerodynamic data. Results showed that a non-linear combination of 7 parameters allowed the classification of 82% voice samples in the same grade as the jury. The second study relates to the adaptation of Automatic Speaker Recognition (ASR) techniques to pathological voice assessment. The system designed for this particular task relies on a GMM based approach, which is the state-of-the-art for ASR. Experiments conducted on 80 female voices provide promising results, underlining the interest of such an approach. We benefit from the multiplicity of theses techniques to evaluate the methodological situation which points fundamental differences between these complementary approaches (bottom-up vs. top-down, global vs. analytic). We also discuss some theoretical aspects about relationship between acoustic measurement and perceptual mechanisms which are often forgotten in the performance race.Nous proposons un bilan méthodologique fondé sur différentes expériences effectuées dans notre groupe de travail sur l'évaluation des troubles de la voix. Un premier axe d'étude a mis en parallèle un jugement perceptif de la qualité vocale de 449 participants (incluant 391 patients dysphoniques) avec des mesures instrumentales acoustique et aérodynamique effectuées sur le même groupe. Les résultats montrent que la combinaison de 7 paramètres instrumentaux permettent de classer 82 % des participants dans le même groupe que le jugement perceptif. Le deuxième axe d'étude, complémentaire, concerne l'adaptation de techniques de Reconnaissance Automatique du Locuteur à la catégorisation des dysphonies. Le système développé pour cette tâche est fondé sur une approche à base de GMM. Les expériences conduites sur 80 voix de femmes ont fourni des résultats plus que prometteurs et ont souligné l'intérêt d'une telle approche originale. Nous profiterons de la multiplicité de ces moyens expérimentaux pour faire un point méthodologique qui pointe des différences fondamentales entre ces approches complémentaires (montante vs descendante, globale vs analytique). Nous discuterons aussi d'aspects théoriques notamment sur les relations entre mesures physiques et mécanismes de perception, considérations qui sont souvent mises de côté du fait de la course à la performance

    Corpus de parole pathologique, état d'avancement et enjeux méthodologiques

    Get PDF
    Autorisation No.3015 : TIPA est la revue du Laboratoire Parole et LangageDepuis une quinzaine d'années, l'étude des dysfonctionnements de la voix et de la parole est sortie du simple cadre de la recherche clinique et intéresse les laboratoires de recherche issus des sciences du langage. Par l'observation des dysfonctionnements, les chercheurs SHS confrontent les résultats de leurs recherches établies sur des corpus de parole "normale" à des situations d'élocution pathologique. En effet, le dysfonctionnement aide à comprendre le fonctionnement. Ces situations permettent un enrichissement des connaissances entre les communautés de scientifiques du langage, des cliniciens mais aussi de chercheurs issus des STIC. Actuellement, les études sur le dysfonctionnement de la voix et de la parole souffrent cruellement d'une dispersion et hétérogénéité des données. Souvent, les analyses portent sur quelques locuteurs enregistrés pour les besoins ponctuels d'une étude, ce qui affaiblit considérablement la portée des résultats et permet mal de généraliser les conclusions. L'enregistrement des données et le stockage sont souvent effectués par du personnel non formé à certains aspects techniques de la prise et du formatage de données, ce qui peut entraîner une impossibilité de diffusion. A cela s'ajoute la perte quasi systématique des méta-données, ce qui explique souvent la difficulté de faire émerger des résultats clairs car l'homogénéité des populations testées devient totalement opaque.Notre projet s'inscrit dans un dessein plus vaste qui vise à décrire et évaluer les dysfonctionnements de la voix et de la parole, ceci dans une optique fédérative et multidisciplinaire, en axant notre effort, dans un premier temps, sur la mise à disposition de masses de données organisées, de méthodes d'analyse et d'outils mutualisés. Pour cela, il est nécessaire d'obtenir un consensus permettant de proposer des recommandations et un mode de fonctionnement assurant un partage effectif des données. Cela implique la rédaction d'un protocole général, de conventions et de directions d'analyse. Le principe n'est pas d'imposer une façon de faire unique mais d'offrir un cadre de travail permettant d'assurer une compatibilité des données recueillies de parole pathologique, des méta-données et enrichissements associés.La deuxième étape consiste à mettre en place et développer un système d'interrogation, d'extraction, de classification des données de parole pathologique. Cela implique l'élaboration d'une organisation en base de données associant informations cliniques et enregistrements sonores et physiologiques, ceci dans une optique multicentrique capable d'intégrer différentes informations variant selon les équipes de recherche. Cette base devra permettre de centraliser et redéployer les informations provenant de divers laboratoires de recherche et centres cliniques impliqués dans l'étude des dysfonctionnements de la voix et de la parole. La consultation de la base doit être rendue publique par Internet avec divers niveaux d'accessibilité en restreignant l'accès selon des modalités à définir entre les partenaires du projet et selon l'ouverture prévue par la suite. De plus, il nous paraît important de fournir un ensemble d'outils d'analyse de ce type de corpus. Si certains outils sont disponibles sous la forme de dispositifs informatisés de tests de perception ou de logiciels d'analyse « classique » du signal, il nous parait intéressant d'introduire des systèmes de traitement issus de la reconnaissance automatique de la parole et du locuteur afin d'être en mesure d'évaluer une grande masse de données et d'obtenir des modèles et résultats statistiquement conséquents. Enfin, il nous paraît intéressant, dans le cadre de ce projet, de proposer un sous-ensemble de données représentatives des troubles de la communication parlée, ceci dans une optique pédagogique qui permettrait de fournir un support aux enseignements à la fois dans les cursus cliniques comme les écoles d'orthophonie mais aussi en sciences du langage ayant des filières « dysfonctionnements ».Notre objectif est d'aboutir dans ce sens au premier corpus conséquent de parole pathologique (dysphonies et dysarthries) de langue française, ainsi qu'à une mise à disposition d'outils communs adaptés à ce type de données. Cela ouvrirait la portée scientifique des études portant sur les dysfonctionnements de la voix et de la parole.Il faut aussi souligner la visée sociale de ce type de projet. Nous touchons au domaine de la santé. Notre projet contribuerait fortement à améliorer ce problème de communication du malade, relevant de la santé publique. Il est clair qu'une meilleure connaissance et évaluation des troubles de la voix et de la parole aurait un impact direct sur la prise en charge des personnes atteintes de ces troubles, celles-ci souffrant bien souvent d'une rupture sociale liée à la dégradation de leur capacité de communication avec leur entourage.Enfin, il faut signaler que la mise à disposition d'un tel type de corpus est d'un grand intérêt pour les laboratoires issus des technologies de l'information et de la communication. En effet, certaines équipes, qui travaillent par exemple sur la reconnaissance automatique de la parole ou du locuteur, manquent totalement de données organisées pour tester leurs systèmes dans des situations atypiques ou encore, pour adapter leurs méthodes aux situations de dysfonctionnement dans le but de fournir des systèmes de classification automatiques dédiés à l'évaluation de la qualité vocale ; le but final de ces travaux étant de fournir une aide au diagnostic et au suivi des dysfonctionnements

    Developing an acoustic-phonetic characterization of dysarthric speech in French

    Get PDF
    - ISBN: 2-9517408-6-7 - Domaines: Phonetic Databases, Phonology, Person IdentificationInternational audienceThis paper presents the rationale, objectives and advances of an on-going project (the DesPho-APaDy project funded by the French National Agency of Research) which aims to provide a systematic and quantified description of French dysarthric speech, over a large population of patients and three dysarthria types (related to the parkinson's disease, the Amyotrophic Lateral Sclerosis disease, and a pure cerebellar alteration). The two French corpora of dysarthric patients, from which the speech data have been selected for analysis purposes, are firstly described. Secondly, this paper discusses and outlines the requirement of a structured and organized computerized platform in order to store, organize and make accessible (for selected and protected usage) dysarthric speech corpora and associated patients' clinical information (mostly disseminated in different locations: labs, hospitals, ...). The design of both a computer database and a multi-field query interface is proposed for the clinical context. Finally, advances of the project related to the selection of the population used for the dysarthria analysis, the preprocessing of the speech files, their orthographic transcription and their automatic alignment are also presented
    • …
    corecore